iT邦幫忙

2024 iThome 鐵人賽

DAY 3
0
AI/ ML & Data

軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹系列 第 3

Day3: ChatGPT的前身與今世(續)-讓AI聊個天其實沒這麼簡單...

  • 分享至 

  • xImage
  •  

在ChatGPT出世之前(~2020),以前的語言模型(LM,Language Model)參數量不夠多,
相比LLAMA3、GPT4的70B、175B,T5-Large,甚至是GPT2-Large大概只有800M的參數大小而已。

在LLM百家爭鳴前,超過1B的LM真的屈指可數(圖中的GPT-2為Extra Large,T5為T5-XXL)

一旦參數大小不夠大,語言模型就無法處理複雜的語意,
就會造成語言模型無法進行多輪(Multi-turn)、多語言(Multilingual)或多模態(Multi-moda)
這種較複雜的對話任務。
https://ithelp.ithome.com.tw/upload/images/20240917/20169030HatqbAZbgW.png

像ChatGPT就是一個能聽的懂多國語言的Multilingual LLMs,要如何依據多個語言做正確的生成仍是個挑戰。

就算使用大數據、強化學習等技巧去訓練,語言模型的回覆也不盡理想
而過去也沒有使用RLHF這種較進階的強化學習技巧,也讓模型的生成有所受限。

過去Chatbot最常回覆I'm don't know.或I'm sorry等短句,因為這樣所受到的誤差最小XD
GAN為使用強化學習及對抗生成的方式產生的回覆


為了要讓比較小的模型也能處理聊天任務,過去將聊天任務分為Chit-chat和Task-oriented二種。
Chit-chat為閒聊式對話,顧名思義就是個普通的聊天機器人,希望回覆符合使用者的上下文。
而Task-oriented為任務導向式對話,目的希望能解決使用者的需求或回覆。

在圖中,前面是聊關於小孩的閒聊式對話,後面是做電影推薦的任務導向式對話

下一篇我會介紹ChatGPT的祖先-DialoGPT,一個專門跟使用者閒聊的Chatbot。

Reference.
How to Harness the Predictive Power of GPT-J
李宏毅-Improving Sequence Generation by GAN
Adversarial Ranking for Language Generation
Multilingual Large Language Model: A Survey of Resources, Taxonomy and Frontiers
SalesBot: Transitioning from Chit-Chat to Task-Oriented Dialogues


上一篇
Day2: 前言(續) - ChatGPT的前身與今世
下一篇
Day4: Chit-chat talk之DialoGPT-ChatGPT的阿祖
系列文
軟體工程師的脫魯日誌-持續介紹hardcore AI研究直到脫魯🥹13
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言